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Verfo lwan nnd Einrichtung Trans kribieten ein es Audiosignals 

Die Erfindung bezieht sich auf ein Verfahren zum Transkribieren eines 
5 Audiosignals enthaltend Signalabschnitte in Text enthaltend Textabschnitte fur ein 
Dokument, welches Dokument zum Wiedergeben von Ihformationen vorgesehen ist, 
welche Infonnationen zumindest teilweise zu den dutch die Transkription erhaltenen 
Textabschnitten korrespondieren. 

Die Erfindung bezieht sich weiters auf eine Einrichtung zum Transkribieren 
10 eines Audiosignal enthaltend Signalabschnitte in Text enthaltend Textabschnitte fur ein 
Dokument, welches Dokument zum Wiedergeben von Ihformationen vorgesehen ist, 
welche Infonnationen zumindest teilweise zu den dutch die Transkription erhaltenen 
Textabschnitten korrespondieren. 

Die Erfindung bezieht sind weiters auf ein Computerprogrammprodukt, das 
15 zum Transkribieren eines Audiosignals geeignet ist 

Die Erfindung bezieht sich weiters auf einen Computer, der das 
Conmuteiprogrammprodukt gemafi dem vorstehenden Absatz abarbeitet 

20 Ein solches Verfahren und eine solche Einrichtung und ein solches 

Computerprogrammprodukt und ein solcher Computer sind aus dem Patentdokument 

US 5,031,1 13 bekannt 

Bei der bekannten Einrichtung, mit deren Hilfe das bekannte Verfahren 
durchfuhrbar ist und die mit Hilfe des bekannten Computers realisiert ist, der das bekannte 

25 Computerprogrammprodukt abarbeitet, wird auf Grundlage eines Audiosignals ein 
Dokument erzeugt Dabei werden in dem Audiosignal enthaltene Signalabschnitte als 
Textabschnitte erkannt und gespeichert. Weiters werden Beziehungsdaten erzeugt und 
gespeichert, die eine zeitiiche Beziehung der Signalabschnitte mit den erkannten 
Textabschnitten reprasentieren. Mit Hilfe der Einrichtung ist das Audiosignal fiber einen 

30 Lautsprecher auf akustische Weise und das Dokument fiber einen Bfldschirm auf visuelle 
Weise wiedergebbar. Die Beziehungsdaten werden bei einem akustischen Wiedergeben des 
Audiosignals zum zeitsynchronen visuellen Hervorheben der zu den jeweiligen 
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Signalabschnitten zeitlich in Beziehung stehenden Textabschnitte verwendet, was in 
Fachkreisen unter dem Begriff „Synchrones Playback 4 ' bekannt ist. 

Bei der bekannten Einrichtung besteht das Problem, dass bei einem Dokument, 
das nicht nur den durch Transkription erzeugten Text, sondein auch andere Element©, wie 
beispielsweise unveranderbare Formularfeldbezeichnungen oder Bilder oder Textbausteine 
oder audiovisuelle Objekte enthalt, bei Anwendung des „Synchronen Playback*', und zwar 
insbesondere im Zusammenhang mit einem Kontrolllesen des durch Transkription 
erzeugten Textes durch eine Arbeitskraft, die den Text nicht selbst diktiert hat, erhebliche 
Schwierigkeiten auftreten, weil diese anderen nicht durch Transkription erzeugten 
Elemente nicht oder nur unzureichend beriicksichtigbar sind 

Die Erfindung hat sich zur Aufgabe gestellt die Probleme bei einem Verfahren 
der eingangs im ersten Absatz angefiihrten Gattung und bei einer Einrichtung der eingangs 
im zweiten Absatz angefiihrten Gattung und bei einem Computerprogrammprodukt der 
eingangs im dritten Absatz angefiihrten Gattung und bei einem Computer der eingangs im 
vierten Absatz angefiihrten Gattung zu beseitigen und ein verbessertes Verfehren und eine 
verbesserte Einrichtung und ein verbessertes Computerprogrammprodukt und einen 
verbesserten Computer zu schaffen. 

Zur Losung der vorstehend angefiihrten Aufgabe sind bei einem Verfahren 
gemaB der Erfindung erfindungsgemafie Merkmale vorgesehen, so dass ein Verfahren 
gemaB der Erfindung auf die nachfolgend angegebene Weise charakterisierbar ist. 

Verfehren zum Transkribieren eines Audiosignals enthaltend Signalabschnitte 
in Text enthaltend Textabschnitte fur ein Dokument, welches Dokument zum Wiedergeben 
von Informationen vorgesehen ist, welche Informationen zumindest teilweise zu den durch 
die Transkription erhaltenen Textabschnitten korrespondieren, welches Verfehren die 
nachfolgend angefiihrten Schritte aufweist, namlich: 

Transkribieren der Signalabschnitte in Textabschnitte und Erzeugen von Beziehungsdaten, 
die zumindest eine zeitliche Beziehung zwischen je mindestens einem Signalabschnitt und 
je mindestens einem durch die Transkription erhaltenen Textabschnitt reprasentieren, und 
Erkennen einer Struktur des Dokuments und Abbilden der erkannten Struktur des 
Dokuments in den Beziehungsdaten. 
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Zur Losung der vorstehend angefuhrten Aufgabe sind bei einer Einrichtung 
gemaB der Erfindung erfindungsgemaBe Merkmale vorgesehen, so dass eine Einrichtung 
gemaB der Einrichtung auf die nachfolgend angefuhrte Weise charakterisierbar ist: 

Einrichtung zum Transkribieren eines Audiosignal enlhaltend Signalabschnitte 
in Text enthaltend Textebschnitte fur ein Dokument, welches Dokument zum Wiedergeben 
von Ihformationen vorgesehen ist, welche Informations zumindest teilweise zu den dutch 
die Transkription erhaltenen Textabschnitten korrespondieren, mit Transkriptionsmittehi 
zum Transkribieren der Signalabschnitte in Textabschnitte und mit Beziehungsdaten- 
Erzeugungsmitteln, die zum Erzeugen von Beziehungsdaten ausgebildet sind, welche 
Beziehungsdaten zumindest eine zeitliche Beziehung zwischen je mindestens einem 
Signalabschnitt und je mindestens einem durch die Transkription erhaltenen Textabschnitt 
reprasentiert, und mit Struktur-Ericennungsmitteln, die zum Erkennen einer Struktur des 
Dokuments ausgebildet sind, und mit Struktur-Abbildungsmittebi, die zum Abbilden der 
erkannten Struktur des Dokuments in den Beziehungsdaten ausgebildet sind. 

Zur Losung der vorstehend angefuhrten Aufgabe ist bei einem 
Computerorogrammprodukt, das zum Transkribieren eines Audio-signals geeignet ist, 
gemaB der Erfindung vorgesehen, dass das Computerprogrammprodukt direkt in einen 
Speicher eines Computers geladen werden kann und Softwarecodeabschnitte umfasst, 
wobei mit dem Computer das Verfahren gemaB der Erfindung abgearbeitet werden kann, 
wenn das Computerprogrammprodukt auf dem Computer abgearbeitet wird. 

Zur Losung der vorstehend angefuhrten Aufgabe ist bei einem Computer 
gemaB der Erfindung vorgesehen, dass der Computer eine Recheneinheit und einen 
internen Speicher aufweist, und das Computerprogrammprodukt gemaB dem vorstehend 

angefuhrten Absatz abarbeitet 

Durch das Vorsehen der MaBnahmen gemaB der Erfindung ist der Vorteil 
erhalten, dass eine Struktur des zu erzeugenden Dokuments nicht nur in dem Dokument 
selbst manifestiert ist, sondem auch in den Beziehungsdaten manifestiert ist, wodurch 
wesenttich komplexere Dokumente erzeugbar und vor allem auch auf audiovisuelle Weise 

weiterverarbeitbar sind. 

Durch das Vorsehen der zusatzUchen MaBnahmen gemaB dem Anspruch 2 
bzw. dem Anspruch 9 ist weiters der Vorteil erhalten, dass eine bereits existierende 
Struktur in einem als Vorlage vorbereiteten Dokument, wie beispielsweise eine durch 
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vordefinierte Formularfelder gegebene Struktur eines Dokuments, auf zuverlassige Weise 
in den Beziehungsdaten abgebildet wild. 

Durch das Vorsehen der zusatzlichen MaBnahmen gemaB dem Anspruch 3 
bzw. dem Anspruch 10 ist weiters der Vorteil erhalten, dass die Struktur eines Dokuments, 
5 die nur durch Strukturanweisungen, die in dem zu transkribierenden Audiosignal enthalten 
sind, weil sie beispielsweise von einer Person diktiert wurden, praktisch in Echtzeit, also 
wahrend des Transkribierens erkannt und auf zuverlassige Weise in den Beziehungsdaten 
abgebildet wind. 

Bei einer erfindungsgemaBen Losung kann beispielsweise vorgesehen sein, 
10 dass fur jedes erkannte Strukturelement des Dokuments eine eigene Datei mit 

Beziehungsdaten erzeugt wird, also ein physikalisches Gruppieren der Beziehungsdaten 
erfolgt. Als besonders vorteilhaft hat es sich jedoch erwiesen, wenn zusatzlich die 
MaBnahmen gemaB dem Anspruch 4 bzw. dem Anspruch 1 1 vorgesehen sind, weil damit 
ein moghchst einfaches und zuverlassiges Gruppieren in einer einzigen Datei realisierbar 
15 ist, so dass ein relativ aufwandiges Bearbeiten von mehreren Dateien vermieden ist In 
diesem Fall kann das Gruppieren der Beziehungsdaten beispielsweise durch ein 
Kennzeichnen der Beziehungsdaten mit Hilfe von Strukturdaten erfolgen, die die erkannte 
Struktur des Dokuments reprasentieren. Es kann jedoch auch vorgesehen sein, dass die 
strukturell zusammengehorenden Beziehungsdaten abschnittsweise in der einzigen Datei 
20 gruppiert werden, wobei jeder Abschnitt einem Strukturelement der erkannten Struktur des 
Dokuments zugeordnet ist. 

Durch das Vorsehen der MaBnahmen gemaB dem Anspruch 5 bzw. dem 
Anspruch 12 ist weiters der Vorteil ernalten, dass die Effizienz bei dem Erkennen von 
Textabschnitten erhoht wird. Dies insbesondere deshalb, weil beispielsweise im Fall eines 
25 Dokuments, das einen Bericht eines Radiologen reprasentiert, bei einem Transkribieren 
von administrativen Anweisungen des Radiologen nicht der radiologische Kontext benfitigt 
wird, sondern ein wesentlich emgeschrankterer allgemeine Anweisungen betreffender 
Kontext ausreicht. Gleiches gilt fur den Fall, dass eine Zusammenfassung eines Berichts 
transkribiert werden soil und beispielsweise im Wesentlichen im vorhinein bekannt ist, 
30 dass in der Zusammenfassung hauptsachlich Standardformulierungen oder 

Standardphrasen zur Anwendung kommen. Gleiches gilt fur den Fall, dass die Struktur in 
einem Dokument durch unterschiedliche Sprachen gegeben ist, die beispielsweise 
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abschnittsweise zur Anwendung kommen. So ist beispielsweise bei einer Verfugbarkeit 
eines ersten Sprachemodells oder eines zweiten Sprachemodells sichergestellt, dass das 
Transkribieren unter automatischer Auswahl des jeweiUgen Sprachemodells erfolgt und 
gegebenenfalls das Dokument nachfolgend gemaB der Struktur, die durch die beiden 
5 unterschiedlichen Sprachen gegeben ist, selektiv von unterschiedlichem Korrekturpersonal 

weiterbeatbeitet wird. 

Durch das Vorsehen der MaBnahmen gemaB dem Anspruch 6 bzw. dem 
Anspruch 13 ist der Vorteil erhalten, dass alle durch Transkription entstandenen textualen 
Elemente des Dokuments problemlos und vor allem in der richtigen Reihenfolge 

10 zusammenhangend wiedergebbar sind, wobei nicht-textuale Elemente ausgelassen werden. 

Durch das Vorsehen der MaBnahmen gemaB dem Anspruch 7 bzw. dem 
Anspruch 14 ist der Vorteil erhalten, dass ein zusammenhangendes akustiscb.es 
Wiedergeben von Textabschnitten durchfuhrbar ist, die einerseits durch das Transkribieren 
des Audiosignal erzeugt wurden und die andererseits auf andere Weise als durch das 

15 Transkribieren des Audiosignals entstanden sind. Solche auf andere Weise entstandenen 
Textabschnitte konnen beispielsweise durch ein manuelles Eingeben von Text in das 
Dokument oder durch ein Einfugen von vordefinierten Textelementen bzw. Textobjekten, 
wie beispielsweise Feldbezeichnungen eines Formulars, oder durch ein Einfugen von 
vordefinierten Textbausteinen oder durch ein Korrigieren des durch Transkription 

20 entstandenen Textes entstanden sein. 

Die vorstehend angefuhrten Aspekte und weitere Aspekte der Erfindung gehen 
aus dem nachfolgend beschriebenen Ausfiflirungsbeispiel hervor und sind anhand dieses 
Ausfuhrungsbeispiels erlautert. 

25 

Die Erfindung wird im Folgenden anhand von einem in den Zeichnungen 
dargestellten Amfuhrungsbeispiel weiter beschrieben, auf das die Erfindung aber nicht 
beschrankt ist 

Die Figur 1 zeigt auf schematische Weise in Form eines Blockschalroildes eine 
30 Einrichtung gemaB einem Ausfuhrungsbeispiel der Erfindung. 

Die Figur 2 zeigt im Klartext eine Information, die in einem mit Hilfe der 
Einrichtung gemaB Figur 1 bearbeiteten Dokument enthalten ist 
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Die Figur 3 zeigt im Klartext hinsichtlich einer Struktur des Dokuments gemaB 
der Figur 2 gegliederte Beziehungsdaten, die zumindest eine zeitliche Beziehung zwischen 
Signalabschnitten eines Audiosignals imd Textabschnitten eines Text des Dokuments 
wiedergeben. 



In der Figur 1 ist eine Einrichtung 1 dargestellt, die zum Transkribieren eines 
Audiosignals AS enthaltend Signalabschnitte SP in Text enthaltend Textabschnitte TP fur 
ein Dokument DO ausgebildet. Das Audiosignal reprasentiert ein Diktat eines Sprechers. In 
10 der Figur 2 ist ein Dokument DO dargestellt, das zum Wiedergeben von Informationen 
vorgesehen ist, welche Informationen zumindest teilweise zu den durch die Transkription 
erhaltenen Textabschnitte TP korrespondieren. Im vorliegenden Fall weist das Dokument 
DO zu den transkribierten Textabschnitten TP nicht korrespondierende Template- 
Abschnitte auf, wie beispielsweise vordefinierte Formularfeldbezeichnungen Author:" 
1 5 oder „Date:", die in einer Dokumentenvorlage fix vorgegebenen sind 

Die Einrichtung 1 weist einen ersten Eingang INI auf, an dem ihr das 
Audiosignal AS zufuhrbare ist. Es sei erwahnt, dass das Audiosignal AS auch auf andere 
Weise, wie beispielsweise mit Hilfe eines Datentragers oder uber ein Datennetzwerk in 
Form einer digitalen Reprasentation zufuhrbar sein kann, wenn die Einrichtung 1 fiber in 
20 an sich bekannter Weise eingerichtete Mittel verfligt 

Die Einrichtung 1 weist weiters einen zweiten Eingang IN2 auf, an dem ihr 
Bearbeitungssignale WS zufuhrbar sind, worauf spater noch im Detail eingegangen ist. 

Die Einrichtung 1 weist weiters Transkriptionsmittel 2 au£ die zum Empfangen 
des Audiosignals AS und zum Transkribieren der Signalabschnitte SP in die Textabschnitte 
25 TP ausgebildet sind. In diesem Zusammenhang sei erwahnt, dass es fur den Fachmann eine 
Selbstverstandlichkeit ist, das Audiosignal AS entsprechend zu konditionieren, wobei 
beispielsweise Filtermittel und Konvertierungsmittel zum Konvertieren in eine digitale 
Reprasentation zur Anwendung kommen, worauf nicht naher eingegangen wird. Das 
Transkribieren der Signalabschnitte SP erfolgt unter Berucksichtigung von in der Figur 1 
30 nicht explizit dargestellten Sprecherdaten und einem selektierbaren Kontext. Kontextdaten, 
die ebenfalls in der Figur 1 nicht explizit dargestellt sind, reprasentieren die 
unterschiedlichen zur Auswahl stehenden Kontexte, wobei jeder Kontext eine Sprache, ein 
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Sprachemodell und ein Lexikon definiert bzw. umfasst. Die Sprecherdaten sind fur den 
jeweiligen Sprecher reprasentativ. Auf Grundlage des zugefuhrten Audiosignals AS sind 
die Transkriptiorunrrittel 2 zum Erzeugen von Textdaten TXD ausgebildet, welche die 
erkannten Textabschnitte TP reprasentieren. 

Die Einrichtung 1 weist weiters Dokumentdaten-Speicherniittel 3 auf; die zum 
Speichem des Dokuments DO und der fur das Dokument DO bestirnmten Template-Daten 
TD und der Textdaten TXD ausgebildet und vorgesehen sind. Die Transkriptionsmittel 2 
sind zum Zusammenwixken mit den Dokumentdaten-Speichermitteln 3 ausgebildet, so dass 
die Textdaten TXD in die dafur vorgesehenen Bereiche des Dokuments DO eingefugt 
werden konnen. Mit Hilfe der Dokumentdaten-Speichermittel 3 sind weiters Objektdaten 
OD speicherbar, welche in das Dokument DO eingefugte Objekte OO reprasentieren, 
worauf nachfolgend noch eingegangen ist. 

Die Einrichtung 1 weist weiters Dokument-Bearbeitungsmittel 4 auf; die zum 
Empfangen von Bearbeitungssignalen WS uber den zweiten Eingang IN2 ausgebildet sind. 
Die Dokument-Bearbeitungsmittel 4 sind weiters unter Berucksichtigung des 
Bearbeitungssignals WS zum Erzeugen und zum Abgeben von Bearbeitungsdaten WD 
ausgebildet, die zum Verahdem der mit Hilfe einer Transkription der Signalabschnitte SP 
erzeugten Textabschnitte TP in den Dokumentdaten-Speichermitteln 3 vorgesehen sind. 
Mit Hilfe der Dokument-Bearbeitungsmittel 4 sindbeispielsweise die in der Figur 2 
dargestellten und offensichthch falsch erkannten Textabschnitte TP zwischen den 
Zeitmarken t93 und tlOO korrigierbar, was durch eine Durchstreichung dieser 
Textabschnitte TP zwischen den Textmarken t93 und tlOO und durch eine Einfugung von 
korrigierten Textabschnitten TP' zwischen der Texttnarke tlOO und tlOl veranschaulicht 
ist Fiir die durch KorrekturmaBnahmen erhaltenen weiteren Textabschnitte TP' gibt es 
keine korrespondierenden Signalabschnitte SP in dem Audiosignal AS, da sie manuell 
eingefugt wurden. Gleiches gilt fur das in der Figur 2 dargestellte Objekt OO. 

Die Transkriptionsmittel 2 sind weiters zum Erzeugen und zum Abgeben einer 
Information betreffend einen Anfengszeitpunkt to und einen Endzeitpunkt tm eines 
Signalabschnitts SP innerhalb des Audiosignals AS und einer Information betreffend eine 
Textabschnitt-Nummer WN ausgebildet, welche die Nummer des jeweils mit Hilfe der 
Transkriptionsmittel 2 erzeugten Textabschnitts TP reprasentiert. 

Die Einrichtung 1 weist weiters Beziehungsdaten-Erzeugungsmittel 5 auf, die 
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zum Erzeugen von Beziehungsdaten RD ausgebildet sind, welche Beziehungsdaten RD 
eine zeitliche Beziehung zwischen je einem Signalabschnitt SP und je mindestens einem 
transkribierten Textabschnitt TP reprasentieren. Zu diesem Zweck sind die 
BeziehuBgsdaten-Erzeugungsmittel 5 zum Empfangen und zum Verarbeiten der 
Information betreffend einen Anfangszeitpunkt tn und einen Endzeitpunkt tm der 
Signalabschnitte SP innerhalb des Audiosignals AS und der Information betreffend eine 
Textabschnitt-Nummer WN ausgebildet Die Beziehungsdaten-Erzeugungsmittel 5 sind 
weiters zum Abgeben der Beziehungsdaten RD ausgebildet. 

Die Einrichtung 1 weist weiters Strnkto-Erkennungsmittel 6 auf, die zum 
Erkennen einer Struktur des Dokuments DO ausgebildet sind, worauf nachfolgend im 
Detail eingegangen ist. 

Zum Zweck des Erkennens der Struktur des Dokuments DO weisen die 
Struktur-Erkennungsmittel 6 eine erste Analysestufe 7 auf, die zum Analysieren des 
Dokuments DO hinsichtlich einer Struktur ausgebildet ist Die erste Analysestufe 6 ist zum 
Zugreifen auf die Dokumentdaten-Speichermittel 3 und zum Auslesen und Beracksichtigen 
der Template-Daten TD ausgebildet. Die erste Analysestufe 6 ist als ein Ergebnis ihrer 
Analyse zum Abgeben von ersten Analysedaten AD1 ausgebildet, welche eine auf 
Grundlage der Template-Daten TD erkennbare Struktur des Dokuments DO reprasentieren. 
Im vorliegenden Fall betrifft diese erkennbare Struktur das Vorliegen von zwei fur eine 
Eingabe von Text vorgesehenen Formularfeldern, die benachbart zu den beiden 
Formularfeldbezeichnungen .Author:" und JDate" angeordnet sind. Die erkennbare 
Struktur kann jedoch auch durch Bilder oder unveranderbare Textstellen gegeben sein. Es 
sei an dieser Stelle erwahnt, dass abgesehen von fur einen Benutzer des Dokuments 
sichtbaren Strukturelementen auch im Normalgebrauch des Dokuments unsichfbare 
Strukturelemente beriicksichtigt werden, die durch Einstellungen definiert sind, die 
beispielsweise bei gangigen Textverarbeitungsprogrammen als sogenannte Bookmarks 
oder sogenannte Gliederungen bekannt sind und die nicht zu der durch das Dokument fur 
den Benutzer wiedergebbaren Information gezahlt werden konnen, weil sie hauptsachlich 
im Zusammenhang mit einem Steuern von Eingaben, einem Steuern von Ausgaben oder 
einem Automatisieren der Verarbeitung des Dokuments zum Tragen kommen. 

Zum Zweck des Erkennens der Struktur des Dokuments DO weisen die 
Struktur-Erkennungsmittel 5 weiters eine zweite Analysestufe 8 auf, die zum Analysieren 
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der erhaltenen Textabschnitte TP hinsichtiich einer Struktur des Dokuments DO 
ausgebildet ist. Die zweite Analysestufe 8 ist zum Empfangen der aus den 
Signalabschnitten SP transkribierten Textdaten TXDundzum Analysieren der Textdaten 
TXD im HinbUck auf durch den Sprecher gesprochene Strukturanweisungen ausgebildet, 
5 wobei die Strukturanweisungen zum Erzeugen und/oder Verandern und/oder Festlegen 
einer Struktur in dem Dokument DO vorgesehen bzw. geeignet sind. Dies kann 
beispielsweise gesprochene Formatzuweisungen, wie zum Beispiel ein Zuordnen von 
Oberscbrittsformaten, die zum Formatieren von Oberschriften vorgesehen sind, zu 
einzelnen Textstellen, die als Oberscbriften formatiert werden soften, oder auch ein durch 
10 gesprochene Befehle bewirktes Einfugen, Ldschen oder Oberscbreiben von 
Textabschnitten TP betreffen. 

Die zweite Analysestufe 8 ist weiters zum Empfangen der Bearbeitungsdaten 
WD und zum Analysieren der Bearbeitungsdaten WD im HinbUck auf eine mit Hilfe der 
Bearbeitungsdaten WD verursachte Veranderung einer bereits bestehenden Struktur des 
15 Dokuments DO oder im Hinblick auf eine neu definierte Struktur in dem Dokument DO 
ausgebildet. Dies kann beispielweise ein Verandern einer Hierarchie von Oberscbriften 
oder ein Einfugen oder Entfernen von Elementen, wie beispielsweise Bildem, Texten oder 
Objekten betreffen, zu denen keine korrespondierenden Signalabschnitte SP in dem 
Audiosignal AS existieren. Es sei an dieser SteUe auch erwahnt, dass die zweite 
20 Analysestufe 8 auch zum Zugreifen auf die Dokumentdaten-Speichermittel 3 und zum 
Analysieren der durch Sprache oder manueUe Bearbeitung entstandenen Struktur des 
Dokuments DO ausgebildet sein kann. 

Die zweite Analysestufe 8 ist in Analogie zu der ersten Analysestufe 7 zum 
Abgeben von das Ergebnis der Analyse reprasentierenden zweiten Analysedaten AD2 
25 ausgebildet. 

Die Einrichtung 1 weist weiters Struktur-Abbildungsmittel 9 auf, die zum 
Empfangen der ersten Analysedaten AD1 und der zweiten Analysedaten AD2 und der 
BeziehungsdatenRD ausgebildet sind. Die Struktur-Abbudungsmittel 9 sindunter 
Zuhilfenabme der ersten Analysedaten AD1 und der zweiten Analysedaten AD2 zum 
30 Abbilden der durch die Analysedaten AD1 und AD2 reprasentierten bzw. erkannten 
Struktur des Dokuments DO in den Beziehungsdaten RD ausgebildet. Die Struktur- 
Abbildungsmittel 9 sind weiters zum Abgeben von hinsichttich der Struktur des 
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Dokuments DO strukturierten Beziehungsdaten SRD ausgebildet, die im vorliegenden Fall 
eine in der Figur 3 dargestellte logische Gruppierung der Beziehungsdaten RD darstellen. 

Die Einrichtung 1 weist weiters Beriehungsdaten-Speichermittel 10 auf, die 
zum Speichern der strukturierten Beziehungsdaten SRD ausgebildet sind. Die Struktur- 
5 Abbildungsmittel 9 sind zum Zugreifen auf die Beziehungsdaten-Speichermittel 1 0 
vorgesehen, wobei die strukturierten Beziehungsdaten SRD in den Beziehungsdaten- 
Speichermitteln 10 speicherbar bzw. bereits gespeicherte Beziehungsdaten SRD 
veranderbar sind. 

In der Figur 3 ist im Klartext eine Abbildung der strukturierten 
10 Beziehungsdaten SRD fur das in der Figur 2 dargestellte Dokument DO wiedergegeben. 
Die Figur 3 zeigt zeilenweise aufgelistete Eintrage die zu Elementen des Dokuments DO 
korrespondieren und mit Hilfe der Zahlen Bins (1) bis Sechsundfunfzig (56) nummeriert 
sind. Eine erste Spalte CI gibt die Nummer des jeweiligen Dokumenteintrags wieder. Eine 
zweite Zeile C2 gibt den jeweiligen Anfangszeitpunkt eines Signalsabschnitts SP innerhalb 
des Audiosignals AS wieder, der zu dem durch die jeweilige Nummer korrespondierenden 
Element des Dokuments DO, wie beispielsweise einem aus einem Signalabschnitt SP 
transkribierten Textabschnitt TP, korrespondiert Eine dritte Spalte C3 gibt den jeweiligen 
Endzeitpunkt des zuvor erwahnten Signalabschnitts SP innerhalb des Audiosignals AS 
wieder. Wie aus der Figur 3 ersichtiich ist, betreffen die mit Hilfe der strukturierten 
Beziehungsdaten reprasentierten Dokumenteintrage jedoch nicht nur solche Elemente, die 
mit Hilfe der Transkription des Audiosignals AS erzeugt wurden, sondern auch solche 
Elemente, die auf andere Art erzeugt wurden und die in dem Dokument zwischen den 
Signalabschnitten SP des Audiosignals AS lokalisiert sind, wie beispielsweise die 
Elemente der Zeile 40 und 52. Eine Spalte C4 reprasentiert fur den jeweiligen 
Dokumenteintrag die Zugehorigkeit zu einer in dem Dokument DO enthaltenen Struktur. 
Dabei ist insbesondere darauf hingewiesen, dass auch Dokumenteintrage, wie 
beispielsweise solche zwischen den Zeitmarken t78 und t79 bzw. zwischen den Zeitmarken 
tlOO und tlOl registrierten DokumenteinlrSgen, in den Beziehungsdaten RD manifestiert 
sind, fur welche Dokumenteintrage kein Audiosignal AS existiert, urn spater 
gegebenenfalls eine solche Elemente umfassende oder eine solche Elemente auslassende 
Audiowiedergabe des Audiosignals AS oder eine Nachvollziehbarkeit der Entstehung 
und/oder Veranderung des Dokuments gewahrleisten zu konnen. 
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Die Einrichtung 1 weist weiters Audiodaten-Sprichermittel 11 anf, die zum 
Speichern von Audiodaten AD ausgebildet sind, welche das Audiosignal AS reprasentieren 
und von den Tianskriptionsmitteln 2 an die Audiosignal-Speichetmittel 11 abgegeben 
werden. Die Audiodaten AD reprasentieren das Audiosignal AS auf an sich bekannte 
Weise in einer digitalen Darstellung, in der auf die Signalabschnitte SP fur eine spatere 
Wiedergabe des Audiosignals AS unter Berucksichtigung der strukturierten 
Beziehungsdaten SRD zuruckgegriffen werden kann. 

Die Transkriptionsniittel 2 sind weiters in Abhangigkeit von der erkannten 
Struktur des Dokuments DO, also in Abhangigkeit von den strukturierten Beziehungsdaten 
SRD konfigurierbar, wobei im vorliegenden Fall zwischen drei verschiedenen Kontexten 
in Abhangigkeit von der Struktur ausgewahlt wird. So wirdbei einem Erkennen, dass es 
sich um ein Struktarelement ..report heading" handelt ein erster Kontext ausgewahlt, und 
dass es sich um ein Strukturelement ..chapter heading" handelt, ein zweiter Kontext 
ausgewahlt, und dass es sich um ein Strukturelement „text" handelt der dritte Kontext 
ausgewahlt. Dadurch ist sichergestellt, dass, so bald das Strukturelement „text" vorliegt, 
der Kontext mit dem maximalen Lexikonumfang bereitgestellt wird, was ublicherweise tur 
das Transkribieren von Signalabschnitten SP, die das Strukturelement ..report heading" 
oder ..chapter heading" betreffen, nicht notwendig ist. Weiters wird bei einem Erkennen,, 
dass es sich um das Strukturelement „author" handelt, ein im wesentiichen Namen 
betreffender vierter Kontext ausgewahlt Weiters wird bei einem Erkennen, dass es sich um 
das Strukturelement „date" handelt ein im wesenthchen Datumsangaben betreffender 
funfter Kontext ausgewahlt 

Es sei an dieser SteUe erwahnt, dass unter Berucksichtigung der erkannten 
Struktur auch die Sprache oder das Sprachmodell oder auch eine Auswahl zwischen 
verschiedenen Sprecherdaten erfolgen kann. Weiters sei erwahnt dass das Berucksichtigen 
einer Struktur des Dokuments DO bei den Transkripnonsmitteln 2 nicht erst dann erfolgen 
muss, wenn die erkannte Struktur bereits in den strukturierten Beziehungsdaten SRD 
Einzug gehalten hat sondern dass das Berucksichtigen der Struktur bereist auf Grundlage 
der ersten Analysedaten AD1 und/oder der zweiten Analysedaten AD2 erfolgen kann, 
sobald diese von den Strukturerkennungsmitteln 6 beispielsweise direkt an die 
Transkriptionsmittel 2 abgebeben werden. 

Die Einrichtung 1 weist weiters Adaptierungsmittel 12 auf, die unter 



PHAT030066 EP-P 



-12- 



Zuhilfenahme der strukturierten Beziehungsdaten SRD zum Adaptieren das jeweiligen 
Kontexts fur die Tnmskripnonsmittel 2 ausgebildet sind. Zu diesem Zweck sind die 
Adaptierungsmittel 12 zum Auslesen der strukturierten Beziehungsdaten SRD aus den 
Beziehungsdaten-Speichermitteln 9 und zum Auslesen der Textdaten TXD aus den 
5 Dokument-Speichermitteln 3 und zum Analysieren der Textdaten TXD unter Heranziehung 
der strukturierten Beziehungsdaten SRD und/oder zum Analysieren der nach dem 
erstmaligen Erzeugen und Speichern der Textdaten TXD mit Hilfe der strukturierten 
Beziehungsdaten SRD protokollierten Veranderungen der Textdaten TXD ausgebildet. Als 
ein Ergebnis des Analysierens der Textdaten TXD sind die Adaptierungsmittel 12 zum 
10 Abgeben einer Veranderung- bzw. Adaptierungsinformation CI an die Transkriptionsmittel 
2 ausgebildet, mit deren Hilfe der jeweilige Kontext adaptierbar ist, so dass in Zukunft 
bessere Ergebnisse bei dem Transkribieren erhalten werden. 

Die Einrichtung 1 weist weiters Wiedergabe-Steuermittel 13 aof, die unter 
Beriicksichtigung der erkannten Struktur des Dokuments DO zum Bewirken eines 
15 akustischen Wiedergebens der Signalabschnitte SP des Audiosignals AS zeitsynchron zu 
einem visuellen Hervorheben der transkribierten Textabschnitte TP bei einem visuellen 
Wiedergeben der Textabschnitte TP des Dokuments DO ausgebildet sind Zu diesem 
Zweck sind die Wiedergabe-Steuermittel 13 zum Zugreifen aufdieinden 
Beziehungsdaten-Speichermitteln 10 gespeicherten strukturierten Beziehungsdaten SRD 
und zum Zugreifen auf die in den Dokument-Speichermitteln 3 gespeicherten Textdaten 
TXD ausgebildet, welche mit Hilfe der stnikturierten Beziehungsdaten SRD als solche 
Textdaten TXD gekennzeichnet sind, fur die Signalabschnitte SP existieren, die mit Hilfe 
der Audiodaten AD reprasentiert sind. Die Wiedergabe-Steuermittel 13 sind weiters zum 
Zugreifen auf die Signalabschnitte SP in den Audiodaten AD ausgebildet, welche 
Signalabschnitte SP durch die jeweiligen in den strukturierten Beziehungsdaten SRD 
protokolkerten Zeitmarken tnundtm zeitlich begrenzt sind. Die Wiedergabe-Steuermittel 
13 sind weiters zum zeitsynchronen Abgeben von den die jeweiligen Signalabschnitte SP 
reprasentierenden Audiodaten AD an eine erste Wiedergabeeinrichtung 14 und zum 
Abgeben der zeitlich dazu korrespondierenden Textanzeige-Steuerdaten TDCD an eine 
zweite Wiedergabeeinrichtung 15 ausgebildet. Mit Hilfe der Textanzeige-Steuerdaten 
TDCD ist erstens die Information des Dokuments DO an die zweite 
Wiedergabeeinrichtung 15 abgebbar, die zum visuellen Wiedergaben dieser Information 
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ausgebildet ist, und zweitens ein synchrones Hervorheben des jeweiligen Textabschnitts TP 
definierbar, wahrend der dazukonespondierende Signalabschnitt SP in Form der 
Audiodaten AD an die erste Wiedergabeeinrichtung 14 abgegeben wird. 

Im vorliegenden Fall ist sowohl die erste Wiedergabeeinrichtung 14, die durch 
5 einen Audioverstarker mit integriertem Lautsprecher realisiert ist, als auch die zweite 
Wiedergabeeinrichtung 15, die durch einen Budschirm realisiert ist, mit der Einrichtung 2 
fiber jeweils einen zugeordneten Signalausgang OUT1 und OUT 2 verbunden. Es sei an 
dieser Stelle jedoch erwahnt, dass diebeiden Einrichtungen 14 und 15 auch durch eine 
Kombinationseinrichtung gebildet sein konnen, die fiber einen einzigen Signalausgang der 
10 Einrichtung 2 mit dieser verbunden sind. Weiters konnen die beiden Einrichtungen 14 und 
15 auch in der Einrichtung 1 integriert sein. 

Die Einrichtung 1 weist Sprach-Synlhetisierungsmittel 16 auf, die zum 
Synthetisieren von Textdaten TXD in synthetische Sprache ausgebildet sind und die dazu 
dient, furjene Textabschnitte TP', fur die keine Signalabschnitte SP in dem Audiosignal 
15 AS existieren, auf synthetische Weise einer akustischen Wiedergabe zuganglich zu 

machen. Die Sprach-Synlhetisierungsmittel 16 sind eingangsseitig mit den Wiedergabe- 
Steuermitteln 1 3 und ausgangsseitig mit dem Signalausgang OUT1 verbunden. 

Die Wiedergabe-Steuermittel 13 sind weiters zum Kooperieren mit den Sprach- 
Synthetisierungsmitteln 16 ausgebildet und unter Zuhilfenahme der Sprach- 
20 Synthetisierungsmittel 16 zum Bewirken eines akustischen Wiedergebens von zusatzlich 
zu den durch Transkription des Audiosignals AS erhaltenen Textabschnitten TP erzeugten 
weiteren Textabschnitten TP' ausgebildet, welche weiteren Textabschnitte TP' benachbart 
zu den durch die Transkription des Audiosignals AS erhaltenen Textabschnitten TP in dem 
Dokument DO existieren. Dabei ist gegebenenfalls ein Unterbrechen des Wiedergebens des 
25 Audiosignals AS wahrend des Wiedergebens der weiteren Textabschnitte TP' unter 

Kontrolle der Wiedergabe-Steuermittel 13 bewirkbar, wenn diese weiteren Textabschnitte 
TP' beispielsweise als Bestandteil des Objekts OO oder durch Korrektur in das Dokument 
DO Eingang gefunden haben, wie dies an Hand der Figur 2 dargestellt ist 

Im Folgenden ist nun anhand eines Anwendungsbeispiels fur die Einrichtung 1 
30 gemafl der Figur 1 die Arbeitsweise der Einrichtung 1 erlautert. 

GemaB dem Anwendungsbeispiel sei angenommen, dass ein Geschaftsmann 
einen Bericht betreffend einen Geschaftsplan diktiert Mit Hilfe eines an dem ersten 
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Eingang INI angeschlossenen Mikrofons 17 wird das Audiosignal AS erzeugt und der 
Einrichtung 1 zugefuhrt 

Mit Hilfe der Einrichtung 1 ist ein Verfahren zum Transkribieren des 
Audiosignals AS durchfiihrbar. Dabei ist zu Beginn des Diktats das in der Figur 2 in 
5 seinem finalen Bearbeitungszustand abgebildete Dokument DO im wesentlichen leer und 
weist lediglich die vordefinierten und unveranderbaren Template-Daten TD auf, die 
vordefinierte Fonnularfeldbezeichnungen, und zwar im vorliegenden Fall die 
Formularfeldbezeichnungen „Autor:" und „Date:", reprasentieren. 

Bei dena Verfahren werden Signalabschnitte SP in dazu korrespondierende 
10 Textabschnitte TP transkribiert und Beziehungsdaten RD erzeugt, welche die zeitliche 
Beziehung zwischen je einem Signalabschnitt SP und je mindestens einem transkribierten 
Textabschnitt TP reprasentieren. 

Im vorliegenden Fall diktiert der Geschaftsmann zunachst die Worter: „Autor: 
Michael Schneider". 

15 Urn den Erkennungs- bzw. Transkription-Prozess zu verbessern, erfolgt mit 

Hilfe der Einrichtung 1 auch ein Erkennen einer Struktur des Dokuments DO und ein 
Abbilden der erkannten Struktur des Dokuments DO in den Beziehungsdaten RD. Zu 
diesem Zweck wird beginnend mit dem Empfangen des Audiosignals AS die Struktur des 
Dokuments DO mit Hilfe der ersten Analysestufe 7 analysiert und festgestellt, dass die 
20 beiden zuvor erwahnten Formularfeldbezeichnungen existieren. Die ersten Analysedaten 
AD1 reprasentieren dieses Analyseergebnis, das mit Hilfe der Strukturabbildungsmittel 9 
in den Beziehungsdaten RD durch ein Erzeugen der strukturierten Beziehungsdaten SRD 
abgebildet wird, was bei den Transkriptionsmitteln 2 dazu ausgenutzt wird, die 
Signalabschnitte, welche die gesprochenen Worter , Alitor" reprasentieren, zu verwerfen. 
25 Weiters wird fur das Transkribieren der vierte Kontext selektiert, bei dem nur einige 

bekannte Namen zur Auswahl stehen. Dies beschleunigt und verbessert das Transkribieren 
der zwischen den in der Figur 2 dargestellten Textzeitmarken tl bis t4 enthaltenen Worter. 
In analoger Weise erfolgt das Transkribieren der Datumsangabe, die mit Hilfe von 
mehreren Signalabschnitten SP reprasentiert ist unter Verwendung von dem funften 
30 Kontext Dabei werden die zwischen den Zeitmarken t5 und t6 auftretenden 

Signalabschnitt SP zusammengefasst, weil die Transkriptionsmittel 2 bei einem Erkennen 
eines ein Datum anzeigenden Strukturelements ein vordefiniertes Datumsform anwenden. 
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Nach dem Diktieren der Eintrage fur die Formularfelder kann der 
Geschaftsmann eine beliebige Struktur fur den nachfolgenden Text definieren. Um dem 
Rechnung zu tragen, erfolgt gemaB dem Verfahren em Analysieren der erkannten 
Textabschnitte TP, also der Textdaten TXD, hmsichtlich der zu erzeugenden Struktur des 
5 Dokuments DO. So wird beispielsweise von dem Geschaftsmann der Satz :"Report 
heading Business Plan Report" diktiert Mit Hilfe der zweiten Analysestufe 8 wird 
daraufhin unter Heranziehung der erkannten Textabschnitte TP erkannt, dass es sich um 
ein Strakturelement betrefifend die Hauptuberschrift des Dokuments DO handelt. 

Dem gemaB werden die zwischen den Zeitmarken t7, t8 und t9, tlO und tl 1, 
10 tl2 erkannten Textabschnitte TP dem Strakturelement Report heading" zugeordnet, so wie 
dies in der Figur 3 dargestellt ist, wobei eine logische Gruppierung der Beziehungsdaten 
RD als strukturierte Beziehungsdaten SRD erfolgt. 

Nachdem dieses Strakturelement anhand der Worter ^report heading" erkannt 
wurde, erfolgt bei den Transkriptionsmitteln 2 auf Grundlage des erkannten 
15 Strukturelements einKonfigurieren der Transkriptionsmittel 2 dahingehend, dass der 

zweite Kontext verwendet wird, der moglichst allgemeine Ausdracke ffir Uberschriften im 

Geschaftsalltag enthalt 

Der Geschaftsmann setzt sein Diktat mit den Worten „chapter heading 
introduction" fort, was ebenfalls dazu fuhrt, dass ein weiteres Strukturelement, namlich das 
20 Strukturelement „chapter heading" erkannt wird. In diesem Fall wird der zweite Kontext 
ausgewahlt, der jedoch im Vergleich zu dem Kontext betreffend die Hauptuberschrift einen 
grofieren Lexikonumfang aufweist Weiters wird der erkannte Textabschnitt TP, der zu 
dem Signalabschnitt SP zwischen den Zeitmarken tl3 und tl4 korrespondiert, in den 
Beziehungsdaten-Speichermitteln 9 dutch das Strukturelement „chapter heading" 



25 



Da im nachfolgend gesprochenen Satz, der durch Signalabschnitte SP zwischen 
den Zeitmarken tl5 bis t44 reprasentiert ist, keine weiteren gesprochenen 
Strukturanweisungen auftreten, wird fur das Transkribieren der das groBte Lexikon 
umfassende Kontext ausgewahlt und die Beziehungsdaten RD fur diese Signalabschnitte 
30 SP dem Slrukturelement „text" zugeordnet 

Danach wird wieder anhand des diktierten Textes das Strakturelement „chapter 
heading" erkannt und der Textabschnitt TP, der zu dem Signalabschnitt zwischen den 
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Zeitmarken t45 und t46 korrespondiert, diesem Strukturelement logisch zugeordnet 
Der nachfolgend gesprochene Satz, der durch die Zeitmarken t47 bis t78 
begrenzt ist, wird wegen eines Fehlens jeglicher erkennbarer Strukturelemente dem 
Strukturelement „text" zugeordnet, wobei zum Transkribieren wiederum der das grofite 
5 Lexikon aufweisende dritte Kontext herangezogen wird. 

Danach wird von dem Geschaftsmann ein Objekt OO in das Dokument DO 
eingefugt, das sowohl eine Grafik als auch einen Text aufweist, zu welchem Text jedoch 
kein Audiosignal AS korrespondiert, weil er durch eine textuale Eingabe erzeugt wurde. 
Das Einfugen des Objekts OO erfolgt im vorliegenden Fall unter Zuhilfenahme von 
10 taktilen Eingabemitteln 1 8, namlich einer Tastatur, die an dem zweiten Eingang IN2 
angeschlossen ist, und der Texfbearbeitungsmittel 4. Es sei jedoch erwahnt, dass das 
Einfugen des Objekts OO auch durch gesprochene Befehle, die mit Hilfe der 
Transkriptionsmittel 2 transkribiert und von weiteren in der Einrichtung 1 nicht 
dargestellten Mitteln als Befehle erkannt und ausgefUhrt werden, erzeugt werden kann. 
15 Dem gemaB wird im vorliegenden Fall das Einfugen des Objekts OD mit Hilfe der zweiten 
Analysestufe 8 erkannt und in den Beziehungsdaten-Speichermitteln 9 das Vorliegen dieses 
Objekts zwischen den Zeitmarken t78 und t79 vermeikt 

Der nachfolgend diktierte Text zwischen den Zeitmarken t79 und tlOO wird 
zunachst dem Strukturelement „text" zugeordnet Jedoch sind bei dem Transkribieren unter 
20 Verwendung des dritten Kontexts Fehler zwischen den Zeitmarken t93 und tlOO 

aufgetreten, die von dem Geschaftsmann mit Hilfe der Eingabemittel 1 8 korrigiert werden. 
Zu diesem Zweck werden die Textabschnitte TP zwischen den Zeitmarken t93 und tlOO 
geloschtund neue Textabschnitte TP' lunzugefugt, welche die geloschten Textabschnitte 
TP ersetzen und vor der Zeitmarke tlOl angesiedelt sind. Mit Hilfe der zweiten 
25 Analysestufe 8 wird diese Veranderung in dem Dokument DO registriert bzw. erkannt und 
die zwischen den Zeitmarken t93 und tlOO urepriinglich vorgelegenen Textabschnitte TP 
durch das Strukturelement „text to skip" markiert, so dass bei einem akustischen 
Wiedergeben der gespeicherten Audiodaten AD diese Textabschnitte TP ubersprungen 
werden. Weiters werden die weiteren Textabschnitte TP', die manuell vor der Zeitmarke 
30 tl 01 eingegeben wurden, durch das Strukturelement „text inserted: no audio" 

gekennzeichnet, was definiert, dass es sich um einen diktierten Text handelt, der jedoch 
nachfolgend korrigiert oder xiberarbeitet wurde, und dass zu den neu hinzugekommenen 
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Textabschnitten TP' keine korrespondierenden Signalabschnitte SP in den gespeicherten 

Audiodaten AD enthalten sind. 

Die nachfolgend in dem Diktat auftretenden Signalabschnitte SP werden in den 
Beziehungsdaten-Speichennitteln 9 dutch das Strukturelement „text" gekennzeichnet, weil 
5 mit Hilfe der Struktux-Erkennungsmittel 5 keine anderen Strukturelemente erkennbar und 

daher auch nicht zuordenbar sind. 

Nachfolgend an ein Diktieren des Textes und gegebenenfalls ein Korrigieren 
des diktierten Textes kann der Geschaftsmann gemaB dem Verfahren einen 
Wiedergabenmodus aktivieren, mit dessen Hilfe ein genaues audiovisuelles Verfolgen des 
10 transkribierten Audiosignals AS zeitsynchron zu einem visuellen Hervorheben der zu den 
jeweils durch die Zeitmarken tn bzw. tm angegebenen Signalabschnitte SP 
korrespondierenden Textabschnitte TP ermoglicht ist, wobei das zeitsynchrone 
audiovisuelle Wiedergeben der Textabschnitte TP und der Signalabschnitte SP unter 
Ausnutzung der strukturierten Beziehungsdaten SRD erfolgt Dadurch ist erreicht, dass 
15 beispielsweise nicht diktierte Elemente des Dokuments OD bei dem visuellen Hervorheben 
ubersprungen bzw. ignoriert werden. 

GemaB dem Verfahren ist weiters gewahrleistet, dass die zusatzlich zu den . 
durch das Transkribieren des Audiosignals AS erhaltenen Textabschnitte TP erzeugten 
weiteren Textabschnitte TP' unter Zuhilfenahme von auf synthetische Weise, also unter 
20 Zuhilfenahme der Sprach-Synthetisierungsmittel 16, erzeugbare Sprache wiedergegeben 
werden. Das Verfahren gewahrleistet weiters, dass das Wiedergeben des Audiosignals AS 
wahrend des Wiedergebens der weiteren Textabschnitte TP' gegebenenfalls unterbrochen 
wird, wenn die weiteren Textabschnitte zwischen durch Transkription erzeugten 
Textabschnitten TP eingebettet sind. 
25 Dadurch ist erreicht, dass auch eine Korrektur oder eine Eintugung 

entsprechend ihrer Position in dem Dokument DO in der richtigen Reihenfolge bzw. im 
richtigen Zusammenhang mit den durch Transkription entstandenen Textabschnitten TP 
beim Wiedergeben berucksichtigt wird. 

Im vorliegenden Fall ist die Einrichtung 1 durch einen in der Figur 1 nicht 
30 dargesteUten Computer mit einer Recheneinheit und einem intemen Speicher reaUsiert, der 
ein Computerprogrammprodukt abarbeitet Das Computerprogrammprodukt ist auf einem 
in der Figur 1 nicht dargesteUten computerlesbaren Datentrager bzw. Medium gespeichert, 
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beispielsweise auf einer DVD oder einer CD oder einem nicht-fliichtigen 
Halbleiterspeicher. Das Computerprogrammprodukt kann von dem computerlesbaren 
Medium in den internen Speicher des Computers geladen werden, so dass mit Hilfe des 
Computers das erfindungsgemaBe Verfahren zum Transkribieren von Signalabschnitten SP 
in Textabschnitte TP durchgefuhrt wird, wenn das Computerprogrammprodukt auf dem 
Computer abgearbeitet wird. 

Es sei an dieser Stelle erwahnt, dass die Einrichtung 1 auch durch mehrere 
Computer realisiert sein kann, die fiber ein Computernetzwerk verteilt sind und als 
Computersystem zusammenarbeiten, so dass einzelne Funktionen der Einrichtung 1 
beispielweise von einzelnen Computern ubernommen werden konnen. 

Es sei erwahnt, dass das zusammenhangende Wiedergeben der Textabschnitte 
TP und der weiteren Textabschnitte TP' auch dann gewahrleistet ist, wenn die auf andere 
Weise erhaltenen weiteren Textabschnitte TP' am Anfang oder am Ende der durch 
Transkription erhaltenen Textabschnitte TP angesiedelt sind. 

Es sei erwahnt, dass die strukturierten Beziehungsdaten SRD auch gesprochen 
oder manuell aktivierte Befehle umfassen konnen, wodurch ein weiterer Beitrag zu einer 
Nachvollziehbarkeit betreffend die Entstehung der durch das Dokument wiedergebbaren 
Information erhalten ist 

Es sei weiters erwahnt, dass die erfindungsgemaBe Einrichtung auch in 
privatem Gebrauch oder in medizinischem Gebrauch oder im sicherheitstechnischen 
Gebrauch einsetzbar ist, wobei diese Aufeahlung nicht abschlieBend ist. 

Hinsichtlich die Zuordnung zwischen Signalabschnitten SP und durch die 
Transkription erhaltenen Textabschnitten TP sei erwahnt, dass beispielsweise das 
gesprochene Wort „ Today" als ein zusammengehorender Signalabschnitt SP erkannt wird 
und dass daraus mehrere Textabschnitte TP, namlich ,,3 1 . Nov. 2003" durch Transkription 
erzeugt werden, so dass im vorliegenden Fall die Beziehungsdaten RD die zeitliche 
Beziehung zwischen einem einzigen Signalabschnitt SP und drei Textabschnitten TP 
wiedergeben. In diesem Zusammenhang sei weiters erwahnt, dass die Zuordnung zwischen 
Signalabschnitten SP und durch die Transkription erhaltenen Textabschnitten TP auch 
derart gegeben sein kann, dass beispielsweise das gesprochene Datum „31. Nov. 2003", 
das durch mindestens drei Signalabschnitte SP reprasentiert ist, namlich jene die das Wort 
„31" und ..November" und ,,2003" reprasentieren, zu einem einzigen Textabschnitt TP, 
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beispielsweise „Heute" oder „Morgen" oder „Gestern", durch Transkription 
zusammengefasst werden, so dass im vorliegenden Fall die Beziehungsdaten RD die 
zeitliche Beziehung zwischen drei Signalabschnitten SP uad einem Textabschnitt TP 
wiedergeben. 
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Patentanspruche: 

1 . Verfahren zum Transkribieren ernes Audiosignals (AS) enthaltend 
Signalabschnitte (SP) in Text enthaltend Textabschnitte (TP) fur ein Dokument (DO), 
welches Dokument (DO) zum Wiedergeben von Informationen vorgesehen ist, welche 

5 Informationen zumindest teilweise zu den durch die Transkription erhaltenen 

Textabschnitten (TP) korrespondieren, welches Verfahren die nachfolgend angefiihrten 
Schritte aufweist, namlich: 

Transkribieren der Signalabschnitte (SP) in Textabschnitte (TP) und 
Erzeugen von Beziehungsdaten (RD), die zumindest eine zeitliche Beziehung zwischen je 
10 mindestens einem Signalabschnitt (SP) und je mindestens einem durch die Transkription 
erhaltenen Textabschnitt (TP) reprasentieren, und 
Erkennen einer Slruktur des Dokuments (DO) und 

Abbilden der erkannten Struktur des Dokuments (DO) in den Beziehungsdaten (RD). 

2. Verfahren nach Anspruch 1, 

15 wobei das Erkennen der Struktur des Dokuments (DO) durch ein Analysieren des 
Dokuments (DO) erfolgt 

3. Verfahren nach Anspruch 1, 

wobei das Erkennen der Struktur des Dokuments (DO) durch ein Analysieren der 
erkannten Textabschnitte (TP) erfolgt. 
20 4. Verfahren nach Anspruch 1, 

wobei das Abbilden der erkannten Struktur des Dokuments (DO) durch ein logisches 
Gruppieren der Beziehungsdaten (RD) erfolgt 

5. Verfahren nach Anspruch 1 , 

wobei ein Konfigurieren von zum Transkribieren von Textabschnitten (TP) vorgesehenen 
25 Transkriptionsmitteln (2) in Abhangigkeit von der erkannten Struktur erfolgt. 

6. Verfahren nach Anspruch 1 , 

wobei ein akustisches Wiedergeben der Signalabschnitte (SP) des Audiosignals (AS) 
zeitsynchron zu einem visuellen Hervorheben der transkribierten Textabschnitte (TP) bei 
einem visuellen Wiedergeben der Textabschnitte (TP) erfolgt und dabei die erkannte 
30 Struktur des Dokuments (DO) berucksichtigt wird. 

7. Verfahren nach Anspruch 3, 

wobei zusatzlich zu den durch die Transkription des Audiosignals (AS) erhaltenen 
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Textabschnitten (TP) exzeugte weitere Textabschnitte (TP 9 ), welche weiteren 
Textabschnitte (TP') benachbart zu den durch die Transkription des Audiosignals (AS) 
erhaltenen Textabschnitten (TP) in dem Dokument (DO) existieren, unter Zuhilfenahme 
von auf synthetische Weise erzeugbare Sprache wiedergeben werden, und 
wobei gegebenenfolls das Wiedergeben des Audiosignals (AS) wahrend des Wiedergebens 
der weiteren Textabschnitte (TP') unterbrochen wird 

8. Einrichtung (1) zum Transkribieren eines Audiosignal (AS) enthaltend 
Signalabschnitte (SP) in Text enthaltend Textabschnitte (TP) fur ein Dokument (DO), 
welches Dokument (DO) zum Wiedergeben von Informationen vorgesehen ist, welche 
Informationen-zumindest teilweise zu den durch die Transkription erhaltenen - 
Textabschnitten (TP) korrespondieren, 

mit Transkriptionsmitteln (2) zum Transkribieren der Signalabschnitte (SP) in 
Textabschnitte (TP) und 

mit Beziehungsdaten-Erzeugungsmitteln (5), die zum Erzeugen von Beziehungsdaten (RD) 
ausgebildet sind, welche Beziehungsdaten (RD) zumindest eine zeitliche Beziehung 
zwischen je mindestens einem Signalabschnitt (SP) und je mindestens einem durch die 
Transkription erhaltenen Textabschnitt (TP) reprasentiert, und 

mit Struktur-Erkenniingsmitteln (6), die zum Erkennen einer Struktur des Dokuments (DO) 
ausgebildet sind, und 

mit Struktur-Abbildungsmitteln (9), die zum Abbilden der erkannten Struktur des 
Dokuments (DO) in den Beziehungsdaten (RD) ausgebildet sind. 

9. Einrichtung (1) nach Anspruch 8, 

wobei die Struktur-Erkennungsmittel (6) mit Hilfe einer ersten Analysestufe (7) realisiert 
sind, die zum Analysieren des Dokuments (DO) hinsichtlich seiner Struktur ausgebildet ist. 

10. Eimichtung (1) nach Anspruch 8, 

wobei die Struktur-Erkennungsmittel (6) mit Hilfe einer zweiten Analysestufe (8) realisiert 
sind, die zum Analysieren der erhaltenen Textabschnitte (TP) hinsichtlich einer Struktur 
des Dokuments (DO) ausgebildet ist 

11. Einrichtung (1) nach Anspruch 8, 

wobei die Straktur-Abbildungsmittel (9) zum logischen Gruppieren der Beziehungsdaten 
(RD) ausgebildet sind 

12. Einrichtung (1) nach Anspruch 8, 
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wobei die Transkriptionsmittel (2) in Abhangigkeit von der erkannten Straktur 
konfigurierbar sincL 

13. Einrichtimg (1) nach Anspruch 8, 

wobei Wiedergabe-Steuermittel (13) vorgesehen sind, die unter Beriicksichtigung der 
5 erkannten Straktur des Dokuments (DO) zum Bewirken eines akustischen Wiedergebens 
der Signal abschnitte (SP) des Audiosignals (AS) zeitsynchron zu einem visuellen 
Hervorheben der transkribierten Textabschnitte (TP) bei einem visuellen Wiedergeben der 
Textabschnitte (TP) ausgebildet sind 

14. Einrichtung (1) nach Anspruch 13, 

10 wobei Sprache-Synthetisierungsmittel (16) vorgesehen sind, die zum Synthetisieren von 
Textabschnitten (TP, TP') in Sprache ausgebildet sind, und 
wobei die Wiedergabe-Steuermittel (13) unter Zuhilfenahme der Sprache- 
Synthetisierungsmittel (16) zum Bewirken eines akustischen Wiedergebens von zusatzlich 
zu den durch Transkription des Audiosignals erhaltenen Textabschnitten (TP) erzeugten 

15 weiteren Textabschnitten (TP'), welche weiteren Textabschnitte (TP') benachbart zu den 
durch die Transkription des Audiosignals (AS) erhaltenen Textabschnitten (TP) in dem 
Dokument (DO) existieren, ausgebildet sind, wobei gegebenenfalls ein Unterbrechen des 
Wiedergebens des Audiosignals (AS) wahrend des Wiedergebens der weiteren 
Textabschnitte (TP') bewirkbar ist. 

20 15. Computerprogrammprodukt, 

das zum Transkribieren eines Audiosignals (AS) geeignet ist und 
das direkt in einen Speicher eines Computers geladen werden kann und 
Softwarecodeabschnitte umfasst, wobei mit dem Computer das Verfahren gemaB dem 
Anspruch 1 abgearbeitet werden kann, wenn das Computerprogrammprodukt auf dem 

25 Computer abgearbeitet wircL 

16. Computeiprogrammprodukt nach Anspruch 15, 

wobei das Computerprogrammprodukt auf einem computerlesbaren Medium gespeichert 
ist. 

17. Computer mit einer Recheneinheit und einem internen Speicher, der das 
30 Computerprogrammprodukt gemaB dem Anspruch 15 abarbeitet 
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Zusammenfassung 

Verfahren urH Krnrich tung zum Transkribieren eines Audiosignals 

5 Bei einem Verfahren zum Transkribieren eines Audiosignals (AS) enthaltend 

Signalabschnitte (SP) in Text enthaltend Textabschnitte (TP) fur ein Dokument (DO), 
welches Dokument (DO) zum Wiedergeben von Informationen vorgesehen ist, welche 
Infonnationen zumindest teilweise zu den durch die Transkription erhaltenen 
Textabschnitten (TP) korrespondieren, ist vorgesehen, dass Signalabschnitte (SP) in 

1 0 Textabschnitte (TP) transkribiert werden und Beziehungsdaten (RD), die zumindest eine 
zeifliche Beziehung zwischen je einem Signalabschnitt (SP) und je mindestens einem 
durch die Transkription erhaltenen Textabschnitt (TP) reprasentieren, erzeugt werden und 
dass eine Struktur des Dokuments (DO) erkannt wird und dass die erkannte Struktur des 
Dokuments (DO) in den Beziehungsdaten (RD) abgebildet wird. 

15 (Figur 1) 
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